Initial Impressions of ChatGPT’s Agent: Successful, Shaky, and Slow ChatGPT代理的精細化體驗
The Task: Book a Business Lunch
任務:預訂商務午餐
起始提示詞如下:
“Find a restaurant suitable for a business lunch near 3100 Travis St, Houston, TX 77006 for next friday at noon.
“找一家適合商務午餐的餐廳,地址在3100 Travis St, Houston, TX 77006,時間是下週五中午。”
這是故意模仿普通人日常說話的方式但不精確的需求。測試目的是看AI在資訊不足時能否表現良好,以及它是否會主動詢問重要的補充問題。比如:這頓飯的預算是多少?這是與同行的一次輕鬆午餐,還是一場昂貴的慶祝活動?人們將如何到達?足夠的停車空間或便捷的公交?餐廳提供何種食物?參與者有無特殊飲食偏好或限制?總共有幾位參與者?是一對一會面還是需要包間?
然而,ChatGPT並未提問任何補充內容而是直接執行任務
。
Step 1Search for Restaurants搜尋餐廳
ChatGPT用了6分鐘時間、呼叫了96個資訊源(如Yelp、OpenTable、Instagram等),進行了大量搜尋。
✓ GPT會自動關閉網頁幹擾元素(如彈窗、錨點跳轉等)並透過截圖方式記錄關鍵頁面。✓

它推薦了3家餐廳,並生成了比較表格,包含:
- 菜系型別
- 用餐氛圍
- 距離與營業時間
- 推薦理由
× 但缺少選單與價格。連結跳轉不一致,有時是截圖,有時是網址,體驗不夠直觀。

Step 2Access the Restaurant Website訪問餐廳官網
“Let’s book a table at Brennan’s.”
預訂布倫南餐廳。
× ChatGPT嘗試開啟官網,但被錯誤地重定向至Google地圖頁面。花了55秒後成功解決問題,並表示將繼續。

Step 3Clarify the Guest Count確認人數與過敏資訊
ChatGPT提出確認用餐人數,使用者答覆“兩人”,並補充“其中一人有貝類過敏”。ChatGPT未進一步詢問是誰過敏,也未詢問具體過敏內容,但後續表現令人驚喜。
Step 4Book the Reservation填寫預訂表單
× 耗時過長:整整11分鐘完成操作(人類僅需約2分鐘);

✓ ChatGPT在處理下拉選單和選擇時間時困難。最初錯選了"12:15"後才糾正。當12:00不可預訂時,自行選擇了12:15並告知變動,同時列出其他可選時間(11:45和12:30)。

✓ ChatGPT聰明地處理了過敏資訊。雖然使用者沒說是誰過敏,它預設是使用者本人,並正確選擇了"貝類過敏"選項。
ChatGPT成功使用了不友好的網頁設計,包括奇怪的滑動按鈕和放在頂部的"儲存"/"取消"按鈕(這種設計連人類都覺得困惑)。儘管如此,ChatGPT還是順利完成了任務。

Step 5Enter Details with Human Intervention人工補全個人資訊
✓ 當表單需要填寫使用者個人資訊時,ChatGPT自動停下並提示使用者接手。這屬於“人類參與其中(human-in-the-loop)”設計,確保AI不擅自處理敏感資料。
× 但網頁視窗解析度較低,填寫體驗不佳,無法放大頁面,稍有不便。

Step 6Submit Reservation提交前確認
✓ 一旦我將控制權交還給 ChatGPT,它花了一分鐘來審查填好的表格,然後問我:“我現在可以繼續提交[預訂]嗎?”這屬於“決策門(decision gate)”,即在執行高風險操作前要求使用者確認。

Step 7Confirm Reservation提交併確認預訂
儘管ChatGPT在填寫和提交預訂表單的過程中出現了超時(超過了網站設定的“10分鐘保留時限”),但餐廳的網站仍然接受了這次預訂,併傳送了確認郵件。
Overall 總結評估
成功之處
- ChatGPT確實完成了預訂流程;
- 能處理複雜網頁、識別控制元件、處理過敏資訊等;
- 提醒使用者重要資訊、請求確認,保持“人類參與”;
- 沒有崩潰或放棄任務。
問題與侷限:
- 缺乏澄清意識:未主動詢問使用者“適合商務午餐”背後的具體含義;
- 耗時較長:11分鐘用於填寫表單,效率低於人工;
- 對突發情況處理能力有限:如選單價格缺失、時間不符等;
- 代理AI處理複雜任務時穩定性有待提升;
- 若需要支付、處理使用者身份等高風險操作,必須由使用者接手,這削弱了AI替代價值。